Inteligentniejsze scenariusze, bardziej naturalne głosy: aktualizacje platformy w tym miesiącu

Darija Fjodorova

Platformy głosowe szybko zmierzają w stronę bardziej elastycznej kontroli, tańszej infrastruktury i scenariuszy o niższej latencji. Dwa obszary, które otrzymały w tym miesiącu największe aktualizacje, to dostawcy syntezy mowy oraz edytor scenariuszy.

Naturalnie brzmiące głosy za ułamek kosztu

Dodaliśmy wsparcie dla nowych modeli text-to-speech Gemini, zwiększając liczbę dostawców głosów do sześciu, z ponad 25 modelami i ponad 200 głosami do wyboru.

Te modele brzmią bardziej naturalnie i kosztują mniej niż dotychczasowe opcje premium na rynku. Generują wysokiej jakości głos przy koszcie od czterech do pięciu razy mniej niż alternatywy premium.

  • Wybór modelu: Klienci mogą teraz wybierać spośród wielu modeli głosowych w zależności od potrzeb. Flash-Lite jest najszybszy i sprawdza się przy krótkich frazach. Flash to zrównoważony model średniej klasy z mocnym przekazem emocjonalnym, odpowiedni do szerszych zastosowań konwersacyjnych. Pro to najbardziej zaawansowana opcja, oferująca jakość premium i głębsze możliwości konwersacyjne. Wszystkie trzy modele obsługują prompty w stylu LLM, dzięki czemu klienci mogą kształtować sposób wypowiedzi bezpośrednio za pomocą promptów, bez osobnej konfiguracji głosu czy dodatkowych ustawień.
  • Dynamiczna kontrola tonu: Ten sam Voice Agent może teraz zmieniać rejestr w zależności od przypadku użycia - "empatyczny" przy obsłudze reklamacji i "formalny" przy przypomnieniu o odnowieniu umowy - ustawiany bezpośrednio za pomocą promptów, bez osobnej konfiguracji głosu. Obecnie dostępna w modelach Gemini.
  • Realistyczne audio: Głosy zawierają naturalne wzorce oddechu i tempa, bliższe ludzkiej mowie niż syntetycznemu odtwarzaniu.

„Przetestowaliśmy każdy znaczący model TTS na rynku. Do tego roku wysokiej jakości głosy zbliżone do ludzkich były drogie. Gemini dorównuje dostawcom premium pod względem jakości, ale kosztuje cztero do pięciokrotnie mniej."

- Ilya Ostrovskiy, Chief Product Officer w Apifonica

Oprócz Gemini rozszerzyliśmy także integrację z ElevenLabs o wsparcie dla Eleven v3. Klienci mają teraz dostęp do sześciu typów modeli w ramach tego samego interfejsu, w tym modeli o niskiej latencji, wielojęzycznych i bardzo ekspresyjnych. Pomaga to klientom zachować równowagę między latencją a ekspresyjnością, w zależności od przypadku użycia.
Praktycznym dodatkiem jest nowa funkcja pobierania próbek audio. Klienci mogą generować i pobierać próbki głosowe bezpośrednio z platformy, używając rzeczywistego tekstu scenariusza. Dostrajanie złożonego scenariusza nie wymaga już testowego połączenia na żywo. Klienci mogą usłyszeć rezultat, dopasować dialog i ponownie wygenerować próbkę w tej samej sesji.

Ulepszenia edytora scenariuszy z wyszukiwaniem i lepszą widocznością

Duże scenariusze głosowe mogą szybko zyskiwać na złożoności, co utrudnia nawigację. Nowa funkcja wyszukiwania w edytorze scenariuszy rozwiązuje ten problem, wprowadzając globalne wyszukiwanie w czasie rzeczywistym w obrębie całego scenariusza.

  • Wyszukiwanie w scenariuszu: Pasek wyszukiwania w stylu Spotlight pozwala teraz natychmiast zlokalizować dowolny blok lub tekst w scenariuszu, niezależnie od jego złożoności.
  • Wyodrębnione dane na pierwszy rzut oka: Wartości z ekstrakcji encji - języki, numery zgłoszeń CRM, wszystkie dane wychwytywane przez blok - są teraz wyświetlane bezpośrednio na kanwie. Nie trzeba już otwierać każdego bloku osobno, żeby zobaczyć, co zawiera.
  • Natychmiastowe próbki audio: Gdy klient chce usłyszeć konkretną frazę, może użyć nowego przycisku pobierania, aby wygenerować próbkę audio i w razie potrzeby ją udostępnić.
W przypadku dużych scenariuszy zawierających setki bloków logicznych staje się to kluczowym ulepszeniem użyteczności.

Co to oznacza w praktyce

Razem te aktualizacje usprawniają dwa kluczowe elementy pracy z głosowym AI:
  • Lepsza jakość głosu z bardziej ekspresyjną i naturalną mową
  • Przyspieszony rozwój scenariuszy i debugowanie na dużą skalę
Cel jest jasny: skrócić drogę od napisania scenariusza do usłyszenia, jak brzmi.

Poproś o prezentację i posłuchaj nowych, naturalnie brzmiących głosów Gemini

Może zainteresuje Cię także: